Day16:實作第六天-醫療文本處理(python)

2024 iThome 鐵人賽

DAY 2

生成式 AI

30天掌握生成式AI的未來應用系列第 16 篇

16th鐵人賽

chiayu26

2024-10-08 22:36:50

614 瀏覽

分享至

一、前言
學習對醫療文本（如病歷、診斷報告等）進行清理和預處理。
使用程式碼完成文本清理，包括去除符號、標點、特殊字符等，為後續的文本生成奠定基礎。

二、目標
去除不必要的標點符號和特殊字符。
分詞處理：將文本拆解成有意義的單詞或短語。
去停用詞：去掉對文本主題沒有實際意義的字，如「的」、「是」等。

三、程式碼與結果

四、分析
通過使用jieba進行中文分詞，並結合自定義的停用詞列表，成功去除了「患者」、「醫生」等無意義詞彙，保留了關鍵診斷資訊如「高血壓」、「糖尿病」、「疲勞」等。這次的預處理結果顯示，jieba適合中文的分詞任務，並且有效提升了文本清理的準確度。去除換行符等額外字符是未來優化的一部分。這為後續進一步應用生成式AI進行診斷報告生成或摘要生成打下了良好基礎。

五、小結反思
今天的實作主題是對醫療文本進行預處理，重點是使用jieba進行中文分詞，去除無意義的詞彙。通過自定義停用詞列表，成功地將不重要的詞去除，保留了關鍵的健康資訊，如「高血壓」、「疲勞」等。這次實作展示了正確的文本預處理對後續分析的重要性。中文分詞需要更精確的工具，jieba目前比較合適的選擇，但在處理過程中仍需不斷調整停用詞列表，以確保去除所有不必要的詞彙。若未來遇到長篇醫療文本要處理時，可以寫利用程式去蕪存菁，將沒有意義的字或詞刪掉，以加速閱讀的速度及重點的整理。

我們明天再見囉